03 贝尔曼最优公式
Optimal Policy
如果对于任意s、任意策略π,某个策略π∗都保证
vπ∗(s)≥vπ(s)
则π∗是最优策略。
从这里来看,最优策略是通过状态价值判断的;此外,这里的最优指策略在每种状态下都最优。
BOE
贝尔曼公式为
v(s)=aΣπ(a∣s)(rΣp(r∣s,a)r+γs′Σp(s′∣s,a)v(s′))
此时策略是给定的。在策略不确定的情况下,对贝尔曼公式取最大值,就得到了贝尔曼最优公式(BOE)。
v(s)=πmaxaΣπ(a∣s)q(s,a)
矩阵形式为
v(s)=πmax(rπ+γPπv)
求解思路
对于
v(s)=πmaxaΣπ(a∣s)q(s,a)
如果q(s,a)是给定的,可以认为π(a∣s)代表权重。这种情况下,考虑到
aΣπ(a∣s)=1
有
πmaxaΣπ(a∣s)q(s,a)=a∈A(s)maxq(s,a)
此时对应的策略为
π(a∣s)={1, a=a∗0, a=a∗ a∗=arg maxaq(s,a)
BOE求解
可以将BOE公式写成
v(s):=πmax(rπ+γPπv)
将等号右边视作函数,则有
v=f(v)
压缩映射定理
如果f(x)=x,则x是f的不动点。
如果对于任意不同x1,x2,有
∣∣f(x1)−f(x2)∣∣≤γ∣∣x1−x2∣∣,γ∈(0,1)
则f为压缩映射。
(这里的∣∣⋅∣∣可以是任何范式)
压缩映射定理指,对于任何形如x=f(x)的等式,如果f为压缩映射,有
- 存在性:有一个不动点x∗满足x∗=f(x∗)
- 唯一性:不动点x∗是唯一的
- 算法:令xk+1=f(xk),k趋于无穷时x趋于x∗
对于BOE中的v=f(v),可以证明f是压缩映射。此时可以通过迭代求出v∗的唯一解。
这里的v=f(v)实际上是对于策略
π(a∣s)={1, a=a∗0, a=a∗ a∗=arg maxaq(s,a)
的特殊贝尔曼公式。
可以通过最优策略的定义证明,这 种π∗是最优的。
最优策略性质
当γ接近1时,agent会较为远视;减小γ时,agent会变得近视 。
此外,显然,改变奖励也会改变策略。
最优策略不变性
如果对所有奖励r进行仿射变换,即
r′=ar+b
此时最优状态价值v′是原来v的仿射变换
v′=av+b/(1−γ)
此时,最优策略不变。